需要长马计划和持续控制能力的问题对现有的强化学习剂构成了重大挑战。在本文中,我们介绍了一种新型的分层增强学习代理,该学习代理将延时的技能与持续控制的技能与远期模型联系起来,以象征性的分离环境的计划进行计划。我们认为我们的代理商符合符号效应的多样化技能。我们制定了一种客观且相应的算法,该算法通过已知的抽象来通过内在动机来无监督学习各种技能。这些技能是通过符号前向模型共同学习的,该模型捕获了国家抽象中技能执行的影响。训练后,我们可以使用向前模型来利用符号动作的技能来进行长途计划,并随后使用学识渊博的连续行动控制技能执行计划。拟议的算法学习了技能和前瞻性模型,可用于解决复杂的任务,这些任务既需要连续控制和长效计划功能,却具有很高的成功率。它与其他平坦和分层的增强学习基线代理相比,并通过真正的机器人成功证明。
translated by 谷歌翻译